<文献ログ> A bottom-up summarization algorithm for videos in the wild
既存手法
Unsupervised vs Supervized
既存はtasksがindependent
やること
まず映像を細かめにセグメント分け
さすがに全フレームがisolatedな分けないし、効率のためにoversegmentする
次に、importance measure (frame "energy")をはかる
dissimilatiry E vs representativeness E
dis: 前後のフレームと違い大きいほどE高い
rep: 前後のフレームと似てるほどE高い
二つの和は、類似度についてU字形のカーブを描く感じかな?
最後にenergyを元に良いとこどりをする
評価方法
SumMe, Tour20 datasetとかいうsummaryと元映像のセットのデータセットもある